Credit scoring, statistique et apprentissage
نویسنده
چکیده
Les accords dits « Bâle 2 » sur la solvabilité des banques ont remis au goût du jour les techniques de scoring en imposant aux banques de calculer des probabilités de défaut et le montant des pertes en cas de défaut. Nous présentons dans cet exposé les principales techniques utilisées et les problèmes actuels. Le terme credit scoring désigne un ensemble d’outils d’aide à la décision utilisés par les organismes financiers pour évaluer le risque de non-remboursement des prêts. Un score est une note de risque, ou une probabilité de défaut. Le problème semble simple en apparence, puisqu’il s’agit d’une classification supervisée en deux groupes, les « bons payeurs » et les « mauvais payeurs ». Les classifieurs linéaires sont les plus classiques et souvent les seuls utilisables en raison de contraintes légales : on doit pouvoir expliquer la décision de refus. Ces classifieurs doivent être adaptés au cas de prédicteurs qualitatifs, que l’on rencontre le plus souvent en crédit à la consommation. On rappellera que l’usage de variables qualitatives remonte à des travaux très anciens de Fisher. La régression logistique est devenue un standard dans la profession, que l’on oppose souvent à tort à l’analyse discriminante. La théorie de l’apprentissage statistique apporte alors des justifications à l’usage de techniques de réduction de dimension (méthode Disqual de discrimination sur composantes factorielles, régression PLS) et de régularisation (régression ridge). La régression PLS se révèle équivalente à une technique méconnue : l’analyse discriminante barycentrique qui est le pendant additif du classifieur naïf de Bayes qui est multiplicatif. Le choix entre méthodes ou algorithmes ne peut reposer sur des critères statistiques de type vraisemblance, inadapté à des problèmes de décision mais sur des mesures de performance en généralisation. La courbe ROC et les indices associés (AUC, Gini, Ki) sont les plus utilisés. Un des problèmes épineux est celui du biais de sélection : en effet l’ensemble d’apprentissage ne contient que des individus dont la demande de prêt a été accordée. On sait que si les variables d’acceptation sont différentes des variables disponibles, on ne peut trouver de solution sans biais. La prise en compte des dossiers refusés (reject inference) donne lieu cependant à une abondante littérature, sans guère de résultats convaincants. La discrimination entre défaillants et non-défaillants n’est plus le seul objectif, surtout pour des prêts à long terme : le « quand » devient aussi important que le « si ». De nombreux travaux s’orientent actuellement vers l’utilisation de modèles de survie pour données censurées dont nous donnerons un aperçu.
منابع مشابه
Validation statistique des cartes de Kohonen en apprentissage supervisé
Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenn...
متن کاملModélisation par apprentissage statistique des systèmes naturels, ou en interaction avec un environnement naturel. Applications aux karsts, crues éclair et en robotique
متن کامل
Apprentissage statistique à grande echelle
De nombreux problèmes d’apprentissage statistique à grande échelle sont formulés comme l’optimisation d’une fonction convexe dont on n’observe que des gradients bruités: cette fonction est typiquement l’erreur de généralisation, et seulement l’erreur sur une observation est disponible à chaque itération. Les algorithmes utilisés en pratique donnent lieu à des garanties de convergence dont l’etu...
متن کاملStatistical learning for image-based personalization of cardiac models. (Apprentissage statistique pour la personnalisation de modèles cardiaques à partir de données d'imagerie)
Cette thèse porte sur un problème de calibration d’un modèle électromécanique de cœur, personnalisé à partir de données d’imagerie médicale 3D + t ; et sur celui — en amont — de suivi du mouvement cardiaque. Les perspectives à long terme de la simulation personnalisée de la fonction cardiaque incluent l’aide au diagnostic et à la planification de thérapie, ainsi que la prévention des risques ca...
متن کاملSymbolic and statistical learning for chunking : comparison and combinations (Apprentissage symbolique et statistique pour le chunking: comparaison et combinaisons) [in French]
RÉSUMÉ Nous décrivons dans cet article l’utilisation d’algorithmes d’inférence grammaticale pour la tâche de chunking, pour ensuite les comparer et les combiner avec des CRF (Conditional Random Fields), à l’efficacité éprouvée pour cette tâche. Notre corpus est extrait du French TreeBank. Nous proposons et évaluons deux manières différentes de combiner modèle symbolique et modèle statistique ap...
متن کامل